读《现代语言学流派》小记|互联网时代的“物理学”
“我们说物理学之所以重要,是因为物质世界是由物质构成的,而物理学恰恰是研究物质运动的学科;我们说计算语言学之所以重要,是因为网络世界主要是由语言文字构成的,而计算语言学恰恰是研究语言文字自动处理的学科。”
——《现代语言学流派》p800
计算语言学是采用计算机技术来研究和处理自然语言,英文名:
Computational Linguistics,简称CL。
计算语言学是现代语言学中的一门新兴学科。同时它也属于计算机科学的一个分支,名为自然语言处理,英文名:
Natural Language Processing,简称NLP。
计算机处理自然语言一般有以下流程(见《现》p772):
1.语言形式化:将语言能力、语言应用等问题以数学形式严密规整地表现出来;
2.计算形式化:将数学形式问题以算法形式呈现,建立自然语言处理的形式模型;
3.模型程序化:根据模型编写计算机程序,在计算机上实现;
4.优化评测程序:研究程序评测技术,根据用户需求改进质量性能。
“史前”阶段:千呼万唤始出来,犹抱琵琶半遮面
20世纪40年代到50年代,四位学者的基础研究不约而同地预示着语言学与数学、计算机科学的联系,见表1。
表1(见《现》p774-779)
可以看出,随着时间的推移,由“将自然语言作为解决数学问题的工具”“提出机器学习语言的设想”“将理工学科概念引入语言领域”再到“将程序语言作为描写语言的工具”,研究渐渐指向“利用计算机科学方法来解决语言学问题”。但此时“计算语言学”尚未成为独立的研究领域。
走在学科建立前面的是计算语言学在应用领域的热潮——机器翻译。
20世纪50年代,在学界和实业界的合力推动下,美国机器翻译研究开始了十年的兴盛期。1952年,美国麻省理工大学出版了第一本机器翻译杂志
《Machine Translation》
真正出现计算机语言学杂志
《Computational Linguistics》
是在1962年——美国“机器翻译和计算语言学学会”成立。学会的成立也推动机器翻译杂志在1965年更名为
《Machine Translation and Computational Linguistics》。
此时,后半部的“and Computational Linguistics”的字号很小,反映了人们对其未来发展情况的不确定,但也赋予了“计算语言学”无限的可能。
好景不长,1966年,美国科学院下属的语言自动处理咨询委员会公布了题为《语言与机器》的报告,报告统计了机器翻译的研究状况,称机器翻译研究遇到了难以解决的语义障碍,没有充分理由大力支持机器翻译研究。在此影响下,各国机器翻译研究走向低迷。但报告同时收录了美国语言学家海斯的建议,认为“在放弃机器翻译这个短期的工程项目时,应当加强语言和自然语言计算机处理的基础研究”。
由此“计算语言学”正式得到了学术界的承认。
发展阶段:万人操弓,共射一招,招无不中。
伴随着1965年国际计算语言学委员会成立,英文名:
International Committee of Computational Linguistics,简称ICCL)
计算语言学进入了持续二十余年的发展阶段。
此前几度陷入冷遇的“机器翻译”重回学界热点。法国数学家、格勒诺布尔大学应用数学研究所自动翻译中心CETA主任沃古瓦提出了“机器翻译金字塔”,将机器翻译分为
直接翻译型(direct translation)
转换翻译型(transfer)
中间语言型(interlingua)
三类。其中,转换型机器翻译的过程是:源语言文本-分析-转换-生成-目标语言文本,见图1。
图 1(见《现》p784)
本书作者冯志伟老师提出“多叉多标记树形图模型”并将其应用在多语言机器翻译FAJRA系统中,有效克服了乔姆斯基短语结构语法生成能力过强的缺陷。
统计方法、逻辑学方法在计算语言学中的应用也相继攻克了语音识别、语音合成、和自然语言理解等方面的难题:维诺格拉德研制的SHRDLU系统,首次尝试在韩礼德的“系统语法”基础上建立全面的英语语法,可使机器人识别自然语言的书面指令来摆弄玩具积木;伍兹研制的Lunar问答系统运用逻辑学方法完成语义解释,能够回答美国登月计划中岩石土壤数据分析的相关问题……
计算语言学在话语分析领域的探索方向也更加清晰,基于计算的话语分析集中探讨四个领域:话语子结构、话语焦点、自动参照消解、基于逻辑的言语行为。
同时,学者们也在反思回溯过去的模型与方法,重新评价有限状态模型和经验主义的价值,为后续语料库的发展提供了可能。
繁荣阶段:更新换代,枝繁叶茂。
1993年英国学者哈钦斯在第四届机器翻译高层会议上指出,1989年后机器翻译的发展进入了新纪元,重要标志便是机器翻译引入了经验主义的方法——语料库的方法,开始处理大规模真实文本。
由此,计算语言学也进入了繁荣发展的阶段,这主要表现在三个方面:研究方法渐趋稳定,概率和数据驱动的方法几乎成为计算语言学研究的标准方法;商品化应用成为可能,计算机迭代迅速,为语音合成、语音识别、拼写检查等应用程序提供技术支持;机器翻译系统建成效率提高,曾经需要数年才能完成的机器翻译系统现今仅需个把小时。
计算语言学的研究成果已在方方面面便利着人们的生活与工作:自动合成天气预报、语音地理导航、跨语言信息检索等日常应用中均可见其踪迹。
在互联网时代,计算语言学就像一架桥梁将泾渭分明的文理科融会贯通——它寻着统计数学的方法重拾语言学人文研究中的合理成分,将真实语料充分利用,力求精确可靠;它突破过往资源限制,重审语言学理论规律,为其提供实证基础;它对语言材料进行数据统计,解释语言系统演变现象,预测语言未来发展动向……
国际世界语学院院士刘海涛老师在《大数据时代,语言学正经历一场“革命”》一文中对语言学在大数据时代的发展变化进行了概述,认为“大数据”的收集与使用无论对于语言本体研究还是语言学与其他学科的交叉领域都意义重大。
刘老师指出,“‘大数据’最大的价值不在于数据本身,而在于如何将数据与知识、社会、文化、行为、人联系在一起,并通过数理统计方法,更科学地发现数据背后隐藏的有关人类认知、行为模式以及人与社会、自然交互的规律。”
正如文章题目所言,大数据时代,语言学正经历着一场革命。
排版:大碗
审阅:鹿弥
我就知道你“在看”